Unscharfe Suche für Terme geringer Frequenz in einem großen Korpus

نویسنده

Karl Gerhards

چکیده

Until now infrequent terms have been neglected in searching in order to save time and memory. With the help of a cascaded index and the introduced algorithms, such considerations are no longer necessary. A fast and efficient method was developed in order to find all terms in the largest freely available corpus of texts in the German language by exact search, part-word-search and fuzzy search. The process can be extended to include transliterated passages. In addition, documents that contain the term with a modified spelling, can also be found by a fuzzy search. Time and memory requirements are determined and fall considerably below the requests of common search engines.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Semantik-gestutzte Analyse von und Suche in Kundenspezifikationen im Maschinenbau

Die gezielte Suche von Informationen in großen Dokumentenmengen ist eine der wesentlichen Herausforderungen der heutigen Zeit. In diesem Papier wird beschrieben, wie wir die Analyse von und Suche in mehrsprachigen Kundenspezifikationen in einem aktuellen Kundenprojekt im Maschinenbau realisiert haben. Im Rahmen der Dokumentenanalyse kommen computerlinguistische und semantische Technologien zum ...

متن کامل

Gebrauchstauglichkeit der Ergebnisseiten von Suchmaschinen

Bei Ergebnisseiten von Suchmaschinen nutzen Anwender die Informationen in den Linkbeschreibungen, um zu entscheiden, ob ein Link für die Suche relevant ist und weiterverfolgt werden soll. Die Linkbeschreibung ist damit ein Kernelement im Selektionsprozess der Suche. Ein neues Modell für eine systematische und differenzierte Forschung über Ergebnisseiten von Suchmaschinen wird vorgestellt. Dazu ...

متن کامل

Entwurf eines Quellcode basierten Qualitätsmodells für die Softwarewartung

Die Wartbarkeit eines Softwaresystems ist ein wichtiger Faktor für seinen langfristigen Einsatz. In diesem Beitrag wird ein Qualitätsmodell auf Quellcode-Basis entworfen, das den Wartbarkeitsbegriff konkretisiert und messbar macht. Ziel ist die Untersuchung der Qualität eines an der Universität entwickelten großen Systems zur Prüfungsverwaltung. 1 Nachhaltigkeit als Qualitätsaspekt von Quellcod...

متن کامل

Using Distributional Similarity for Lexical Expansion in Knowledge-based Word Sense Disambiguation

We explore the contribution of distributional information for purely knowledge-based word sense disambiguation. Specifically, we use a distributional thesaurus, computed from a large parsed corpus, for lexical expansion of context and sense information. This bridges the lexical gap that is seen as the major obstacle for word overlap–based approaches. We apply this mechanism to two traditional k...

متن کامل

Aufbau eines Referenzkorpus zur deutschsprachigen internetbasierten Kommunikation als Zusatzkomponente für die Korpora im Projekt 'Digitales Wörterbuch der deutschen Sprache' (DWDS)

Dieser Beitrag gibt einen Überblick über die laufenden Arbeiten im Projekt „Deutsches Referenzkorpus zur internetbasierten Kommunikation“ (DeRiK), in dem ein Korpus zur Sprachverwendung in der deutschsprachigen internetbasierten Kommunikation aufgebaut wird. Das Korpus ist als eine Zusatzkomponente zu den Korpora im BBAW-Projekt „Digitales Wörterbuch der deutschen Sprache“ (DWDS, http://www.dwd...

متن کامل

ذخیره در منابع من

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره شماره

صفحات -

تاریخ انتشار 2010

Unscharfe Suche für Terme geringer Frequenz in einem großen Korpus

نویسنده

چکیده

منابع مشابه

Semantik-gestutzte Analyse von und Suche in Kundenspezifikationen im Maschinenbau

Gebrauchstauglichkeit der Ergebnisseiten von Suchmaschinen

Entwurf eines Quellcode basierten Qualitätsmodells für die Softwarewartung

Using Distributional Similarity for Lexical Expansion in Knowledge-based Word Sense Disambiguation

Aufbau eines Referenzkorpus zur deutschsprachigen internetbasierten Kommunikation als Zusatzkomponente für die Korpora im Projekt 'Digitales Wörterbuch der deutschen Sprache' (DWDS)

عنوان ژورنال:

اشتراک گذاری